查看原文
其他

又上央视了,华为云为中国考古做贡献

华为云 2022-04-13

最近总上央视CCTV2到CCTV9~~


这次上央视,云宝可没空着手回来,给各位带来了一个暴富小技巧!

 

 

CCTV-9纪录频道近日隆重推出人文历史系列纪录片《甲骨王朝》,揭开商王朝的神秘面纱,还原商王朝的历史面貌。


在第六集,华为云AI团队携手首都师范大学甲骨文研究中心莫伯峰教授,基于华为云ModelArts一站式AI开发平台等服务,发起了一场文化跨界科技的标杆性实验。双方共同打造了甲骨文字形匹配甲骨文语义推理两个AI模型,为甲骨文的研究工作插上科技的翅膀。

 

央视录片《甲骨王朝》截图

 

要知道,中国文字博物馆曾发布天价悬赏求“认字”,“破译一个甲骨文字奖励10万元”!云宝有了这AI模型,真的要暴富啦!

 

 ▲央视纪录片《甲骨王朝》截图


不开玩笑了,认真说。甲骨文字的识别对于中国考古的重大意义不言而喻,但距离甲骨文被创造已三千余年,每个文字的形体、意义、读音都发生了剧烈变化,且“一字多形、一字多义”,辨识难度极大,工作十分繁重。

 

 ▲出自《汉语典》(黄扬主编)

它们都是“龟”字,侧面俯视就算了

第四个六条腿是怎么回事

 

那么,为了帮助甲骨文的破解,华为云做了些什么呢?



字形匹配模型

洞悉文字变迁的规律


央视纪录片《甲骨王朝》视频画面


为帮助未考释的甲骨文揭开神秘面纱,华为云AI团队首先为莫伯峰教授打造了字形匹配模型,“推演”是该模型的主要任务代号。在早期,文字的变迁主要是基于字形逐渐演变的。相邻朝代中,字形的变化通常有迹可循。沿着文字发展的脉络进行字形对比,是甲骨学家重要的破译方法。华为云的字形匹配模型正是基于这种规律,通过检索与单个甲骨文字符字形相似的金文字符,来帮助实现甲骨文的破译。


央视纪录片《甲骨王朝》视频画面


将大量甲骨文与金文录入到计算机系统后,华为云AI工程师利用神经网络等技术,训练出帮助识别甲骨文的字形匹配模型,让AI掌握从甲骨文到金文再到现代文的文字发展规律,并模拟专家的破译思路。“机器识别与人的识别效果非常接近”,莫伯峰教授这样说道。同时,模型推理出的关于甲骨文-金文的匹配结果,往往能给甲骨学家们一些关于字形演变的新的思考。


首都师范大学甲骨文研究中心莫伯峰教授


然而,对甲骨文考释而言,能够从文字相似度的角度来破译的未释字数量相对有限,字形匹配模型的应用能解决的问题仅为冰山一角。剩余的“文化密码”,也许需要一个全新的破解思路。

 


语义推理模型

帮助推理文字的AI界福尔摩斯


让AI学习专家在古文字考释中常见的“辞例归纳法”,是华为云AI团队在该项目中的另一项创新。所谓“辞例归纳”,意即根据上下文语境推理出某个字或某词组的含义。比如当我们使用计算机和手机的联想输入法,只要输入一些内容,就能自动预测接下来可能会搭配的文字,这种预测其实就是根据之前的语境和辞例归纳出来的,也就是机器的“辞例归纳”。


为让AI与人类一样具备识文断句、上下文理解及推理能力,在模型构建环节,华为云AI团队以8亿字的《四库全书》作为语料结合通假字、同音字等古文规则,培养人工智能的语感,同时也能让人工智能系统化地学习汉朝至清乾隆时期的中国古典文化。


团队以已经具有成熟释文文本的战国楚竹书《上博简》(1-9)中的2103个字作为测试对象,随机遮蔽某个文字,并让模型预测遮蔽处的文字含义。语义推理模型可以在备选字符中为遮蔽处推选出五个可能的正确选项,有效地帮助专家缩窄探索范围。


‍▲央视纪录片《甲骨王朝》截图‍


正确理解一片甲骨刻辞,并不仅取决于所有文字是否可识,更重要的是能否读懂刻辞内容。接下来,团队一方面计划引入华为云盘古大模型,基于其优秀的泛化能力,解决甲骨文研究领域知识和数据不足的瓶颈。另一方面,团队计划构建关于甲骨文的知识图谱,承载既有的研究成果,用图网络的形式展示甲骨拓片所蕴藏的丰富信息,从更高维度的视角来推动甲骨文的研究。


华为云人工智能领域总裁贾永利


华为云人工智能领域总裁贾永利表示,新兴技术让学界专家得以将人类经验与计算机自然语言相结合。通过AI对甲骨文研究的赋能,早期文明史的探索步伐将迈上新的台阶,蕴含在珍贵文物中的优秀传统文化将能更好地实现创新性发展。

 









戳“阅读原文”,了解大展身手的华为云AI平台ModelArts

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存